Изображения теперь можно править голосом. Не нужно перегенерировать с нуля.

OpenAI представила ChatGPT Images 2.0 и дала понять, что генерация картинок больше не сводится к схеме "написал запрос, получил результат, начал заново". Теперь изображение можно последовательно править в том же диалоге: менять детали, перестраивать сцену и доводить результат шаг за шагом, не перезапуская весь процесс.
Основные изменения касаются точности выполнения инструкций, работы с текстом внутри кадра, компоновки сложных сцен и общей пригодности результата для прикладных задач. В техническом описании OpenAI отдельно отмечает более точное понимание запроса, более уверенную работу с деталями и более стабильную сборку сложных макетов.
У новой версии два режима: Instant и Thinking. Первый нужен для быстрых генераций, когда результат нужен сразу. Второй работает медленнее, потому что тратит больше времени на построение сцены и лучше подходит для задач, где важны последовательность и согласованность деталей. В справке OpenAI сказано, что режим images with thinking доступен на платных тарифах ChatGPT при выборе моделей Thinking и Pro, а сама ChatGPT Images 2.0 доступна на всех тарифах.
Разница между режимами связана не только со скоростью. Thinking лучше подходит для серий изображений, где нужно сохранять персонажей, предметы и внутреннюю логику сцены от кадра к кадру. OpenAI показывает, что модель увереннее справляется с многошаговым визуальным повествованием, страницами манги, раскадровками, листами персонажей и другими сериями, в которых ранние генераторы часто путали лицо героя, одежду и детали сюжета.
Самое заметное изменение касается самого процесса работы. OpenAI больше не подает генерацию как разовое действие по одному запросу. Пользователь может дорабатывать изображение прямо в разговоре: приближать нужную область, менять отдельные элементы, перестраивать композицию, сохранять контекст прошлых правок и продолжать работу без постоянного возврата к нулевой версии.
Компания отдельно делает упор на те места, где генераторы раньше особенно часто ошибались. Прежде всего речь о тексте внутри изображения и о языках, которые не используют латиницу. OpenAI пишет, что Images 2.0 заметно лучше работает с японским, корейским, китайским, хинди и бенгальским письмом. Для афиш, интерфейсных макетов, комиксов, игровых материалов и других подобных задач это важное изменение: модель начинает увереннее справляться не только с картинкой, но и с надписями.
Есть и обновления, которые прямо влияют на практическое использование. Модель поддерживает соотношения сторон от 3:1 до 1:3, умеет выдавать изображения с разрешением до 2K и может сгенерировать до восьми вариантов за один запуск. OpenAI явно подводит продукт к более рабочему формату, где за один проход можно получить сразу несколько версий под баннер, постер, вертикальный экран или сторис.
На фоне конкуренции техногигантов такой шаг вполне понятен. Противостояние все сильнее смещается в сторону мультимодальности. OpenAI, судя по запуску Images 2.0, делает серьезную ставку именно на изображения как на следующий важный формат работы с ИИ: пользователь не переключается между поиском, редактором, генератором и дизайнерским инструментом, а решает всю цепочку задач в одном окне.
Компания уже запустила ChatGPT Images 2.0 в веб-версии ChatGPT, а для разработчиков добавила в API новую модель для генерации изображений. Формально OpenAI показала очередное обновление генератора, но по смыслу компания продвигает более широкий сдвиг: изображение перестает быть второстепенной функцией внутри чата и превращается в один из основных форматов работы с самим ChatGPT.